近年来,创造日益生动的3D说话面孔已成为一个热门话题。术语时,大多数语音驱动的作品都集中在嘴唇同步上,但忽略了有效捕获情绪与面部感受之间的相关性。为了解决这个问题,我们提出了一个名为Emoface的两流网络,该网络由情感分支和内容分支组成。Emoface采用一种新颖的网状注意力进行机械性,以分析和融合情感特征和内容特征。尤其是,新设计的基于时空图的卷积螺旋 - conv3d用于网格注意力,以学习网格顶点之间的波动时间和空间特征依赖性。此外,据我们所知,这是第一次引入新的自我生长训练方案,并通过中间监督进行动态调整3D面动画任务中采用的地面图的比率。对我们高质量的3D情绪面部面积数据集的全面定量和定性评估,3D-Ravdess(4。8863×10 - 5 mm,LVE和0。 9509×10 - 5毫米,与公共数据集vocaset一起使用(2。 8669×10 - 5 mm,lve和0。 4664×10 - 5 mm的EVE)证明我们的方法可以实现最先进的性能。8863×10 - 5 mm,LVE和0。9509×10 - 5毫米,与公共数据集vocaset一起使用(2。8669×10 - 5 mm,lve和0。 4664×10 - 5 mm的EVE)证明我们的方法可以实现最先进的性能。8669×10 - 5 mm,lve和0。4664×10 - 5 mm的EVE)证明我们的方法可以实现最先进的性能。
主要关键词